Standalone BLAST


Поиск в геноме участков, кодирующих белки, похожие на THIE_BACSU

Зная аминокислотную последовательность вашего белка из THIE_BACSU из Bacillus subtilis, можно определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома. Для этого создаем в своей рабочей директории индексные файлы пакета BLAST+ для поиска по G.thermodenitrificans:
makeblastdb -in gt_genome.fasta -dbtype nucl -out gt.fasta
Затем выбераем подходящую для решения данной задачи программу из пакета BLAST+ и проведим с ее помощью поиск с порогом на E-value 0,001:
tblastn -query query.fasta -db gt.fasta -out result.txt -evalue 0.001 -outfmt 6
Полученные данные приведены в таблице ниже.

Таблица 1. Поиск гомологов белка THIE_BACSU в геноме G.thermodenitrificans.

Число находок с E-value < 0,001 2
E-value лучшей находки 1e-60
Координаты лучшей находки от 1450236 до 1450829
Доля последовательности THIE_BACSU, вошедшая в выравнивание с лучшей находкой 89%

Поиск гомологов некодирующих последовательностей программой BLASTN

Имея последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5, можно определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии.

Поиск гомологов при изменённых параметрах программы BLASTN

Повторила предыдущее задание ещё два раза с изменёнными параметрами программы, каждый раз сохраняя результаты в новый файл.
В первый раз изменила весовую матрицу, то есть параметры -reward и -penalty. Установила -reward 5 и -penalty -4, также поменяла параметры -gapopen и -gapextend на -gapopen 8 и -gapextend 6.
Во второй раз, оставила те же значения параметров -reward, -penalty, -gapopen и -gapextend, но поменяла значение параметра -word_size на минимально возможное, то есть на -word_size 4.
Использованные команды:
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -word_size 11 -outfmt 7 > 1111
real    0m0.570s
user    0m0.364s
sys     0m0.200s



grep "Fields" 1111 | wc –l
81


time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -word_size 11 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 > 1112

real    0m0.679s
user    0m0.420s
sys     0m0.256s



time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -word_size 4 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 > 1113

real    0m21.151s
user    0m20.900s
sys     0m0.224s




time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -word_size 4 -outfmt 7 > 1114

real    0m15.953s
user    0m15.700s
sys     0m0.244s

Результат представлен в виде Excel-файла trna.xls, лежащий в директории H:\term3\block3\BLAST.

Анализ результатов

Для работы была выбрана глутаминовая тРНК:
Последовательность тРНК из G.thermodenitrificans: gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtggttcgagtccactcaggcccacca
Последовательность тРНК из Bacillus subtilis: tgggctatagccaagcggtaaggcaacggactttgactccgtcatgcgttggttcgaatccagctagcccagtca
Выравнивание две последовательности программой needle:
# Aligned_sequences: 2
# 1: trna
# 2: trna_gln
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 85
# Identity:      53/85 (62.4%)
# Similarity:    53/85 (62.4%)
# Gaps:          18/85 (21.2%)
# Score: 115.0
# 
#
#=======================================

trna               1 -gggcctgtagctcagctggttag--agcgcac---gcctgataagcgtg     44
                      ||| ||.||||..||| |||.||  |.||.||   |.||     .|||.
trna_gln           1 tggg-ctatagccaagc-ggtaaggcaacggactttgact-----ccgtc     43

trna              45 aggtcggtggttcgagtcca-ctcaggccca-cca     77
                     |.| ||.||||||||.|||| ||  .||||| .||
trna_gln          44 atg-cgttggttcgaatccagct--agcccagtca     75                  
В целом последовательности схожи. Их процент идентичности довольно высок, однако присутствует несколько гэпов. Данное выравнивание подтверждает консервативность структуры тРНК. Так как выравнивание имеет большой вес, то различия в последовательностях не существенны для выполнения их функции.
Гомологичный участок в поле FT записи EMBL, описывающей геном бактерии проаннотирован как тРНК.
FT   tRNA            88985..89057
FT                   /product="transfert RNA-Thr"
FT                   /note="tRNAscan-SE vs 1.3 result - Cove score = 83.52"


© Novikova Maria, 2013
Последнее обновление: 16.12.2013